智能论文笔记

DeepInteraction: 3D Object Detection via Modality Interaction

Zeyu Yang , Jiaqi Chen , Zhenwei Miao , Wei Li , Xiatian Zhu , Li Zhang

分类：计算机视觉

2022-08-23

现有的最佳3D对象检测器通常依赖于多模式融合策略。但是，由于忽略了特定于模式的有用信息，因此从根本上限制了该设计，并最终阻碍了模型性能。为了解决这一局限性，在这项工作中，我们介绍了一种新型的模式相互作用策略，在该策略中，在整个过程中学习和维护单个单模式表示，以使其在物体检测过程中被利用其独特特征。为了实现这一建议的策略，我们设计了一个深层互动体系结构，其特征是多模式代表性交互编码器和多模式预测交互解码器。大规模Nuscenes数据集的实验表明，我们所提出的方法经常超过所有先前的艺术。至关重要的是，我们的方法在竞争激烈的Nuscenes对象检测排行榜上排名第一。

translated by 谷歌翻译

Towards Graph Representation Learning Based Surgical Workflow Anticipation

Xiatian Zhang , Noura Al Moubayed , Hubert P. H. Shum

分类：计算机视觉 | 机器学习

2022-08-07

手术工作流程预期可以预测进行哪些步骤或接下来使用哪些工具，这是计算机辅助干预系统的重要组成部分，例如机器人手术中的工作流程推理。但是，当前的方法仅限于它们在工具之间关系的表达能力不足。因此，我们提出了一个图形表示学习框架，以全面表示手术工作流期望问题中的仪器运动。在我们提出的图表表示中，我们将仪器的边界框信息映射到连续帧中的图节点，并构建框架间/互动图形的图形边缘，以表示随着时间的推移仪器的轨迹和相互作用。这种设计增强了我们网络对手术仪器的空间和时间模式及其相互作用的建模能力。此外，我们设计了一种多型胜利学习策略，以平衡对各种视野无动于衷的预期任务的理解，从而大大改善了各种视野的预期模型性能。 cholec80数据集的实验证明了我们提出的方法的性能可以超过基于较富主链的最新方法，尤其是在仪器预期中（1.27 v.s. 1.48 for Inmae； 1.48 v.s. 2.68 for Emae）。据我们所知，我们是第一个将时空图表引入外科工作流程预期的人。

translated by 谷歌翻译

Visual Representation Learning with Transformer: A Sequence-to-Sequence Perspective

Li Zhang , Sixiao Zheng , Jiachen Lu , Xinxuan Zhao , Xiatian Zhu , Yanwei Fu , Tao Xiang , Jianfeng Feng

分类：计算机视觉

2022-07-19

视觉表示学习是解决各种视力问题的关键。依靠开创性的网格结构先验，卷积神经网络（CNN）已成为大多数深视觉模型的事实上的标准架构。例如，经典的语义分割方法通常采用带有编码器编码器体系结构的完全横向卷积网络（FCN）。编码器逐渐减少了空间分辨率，并通过更大的接受场来学习更多抽象的视觉概念。由于上下文建模对于分割至关重要，因此最新的努力一直集中在通过扩张（即极度）卷积或插入注意力模块来增加接受场。但是，基于FCN的体系结构保持不变。在本文中，我们旨在通过将视觉表示学习作为序列到序列预测任务来提供替代观点。具体而言，我们部署纯变压器以将图像编码为一系列贴片，而无需局部卷积和分辨率减少。通过在变压器的每一层中建立的全球环境，可以学习更强大的视觉表示形式，以更好地解决视力任务。特别是，我们的细分模型（称为分割变压器（SETR））在ADE20K上擅长（50.28％MIOU，这是提交当天测试排行榜中的第一个位置），Pascal环境（55.83％MIOU），并在CityScapes上达到竞争成果。此外，我们制定了一个分层局部全球（HLG）变压器的家族，其特征是窗户内的本地关注和跨窗户的全球性专注于层次结构和金字塔架构。广泛的实验表明，我们的方法在各种视觉识别任务（例如，图像分类，对象检测和实例分割和语义分割）上实现了吸引力的性能。

translated by 谷歌翻译

FashionViL: Fashion-Focused Vision-and-Language Representation Learning

Xiao Han , Licheng Yu , Xiatian Zhu , Li Zhang , Yi-Zhe Song , Tao Xiang

分类：计算机视觉

2022-07-17

事实证明，大规模的视觉和语言（V+L）预训练已被证明有效地增强了下游V+L任务。但是，当涉及时尚域时，现有的V+L方法是不足的，因为它们忽略了时尚V+L数据和下游任务的独特特征。在这项工作中，我们提出了一个以时尚为中心的新型V+L表示框架，被称为Fashionvil。它包含两个新型时尚特定的预训练任务，旨在使用时尚V+L数据利用两个内在属性。首先，与其他域仅包含单个图像文本对的其他域相比，时尚域中可能有多个图像。因此，我们提出了一项多视图对比学习任务，以将一个图像的可视化表示为另一个图像+文本的组成多模式表示。其次，时尚文本（例如，产品描述）通常包含丰富的细粒概念（属性/名词短语）。为了利用这一点，引入了伪归因于分类任务，以鼓励同一概念的学习的单峰（视觉/文本）表示。此外，时尚V+L任务唯一包含不符合常见的一流或两流体系结构的任务（例如，文本引导的图像检索）。因此，我们提出了一个灵活的，多功能的V+L模型体系结构，该体系结构由模态 - 静态变压器组成，以便可以灵活地适应任何下游任务。广泛的实验表明，我们的FashionVil在五个下游任务中实现了新的最新技术。代码可从https://github.com/brandonhanx/mmf获得。

translated by 谷歌翻译

Pose-based Tremor Classification for Parkinson's Disease Diagnosis from Video

Haozheng Zhang , Edmond S. L. Ho , Xiatian Zhang , Hubert P. H. Shum

分类：计算机视觉 | 机器学习

2022-07-14

帕金森氏病（PD）是一种进行性神经退行性疾病，导致各种运动功能障碍症状，包括震颤，胸肌，僵硬和姿势不稳定。 PD的诊断主要取决于临床经验，而不是确定的医学测试，诊断准确性仅为73-84％，因为它受到不同医学专家的主观意见或经验的挑战。因此，有效且可解释的自动PD诊断系统对于支持更强大的诊断决策的临床医生很有价值。为此，我们建议对帕金森的震颤进行分类，因为它是PD的最主要症状之一，具有强烈的普遍性。与其他计算机辅助时间和资源消耗的帕金森震颤（PT）分类系统不同，我们提出了SPAPNET，该系统仅需要消费者级的非侵入性视频记录人类面向摄像机的动作作为输入，以提供无诊断低成本分类的患者作为PD警告标志。我们首次提议使用带有轻质金字塔通道 - 融合式结构的新型注意模块来提取相关的PT信息并有效地过滤噪声。这种设计有助于提高分类性能和系统的解释性。实验结果表明，我们的系统在将PT与非PT类别分类中的平衡精度达到90.9％和90.6％的F1得分来胜过最先进的。

translated by 谷歌翻译

Accelerating Score-based Generative Models with Preconditioned Diffusion Sampling

Hengyuan Ma , Li Zhang , Xiatian Zhu , Jianfeng Feng

分类：计算机视觉

2022-07-05

基于分数的生成模型（SGM）最近已成为一类有希望的生成模型。但是，一个基本的限制是，由于需要许多顺序计算的迭代（例如，2000年），它们的推论非常慢。直观的加速方法是减少采样迭代，但是导致严重的性能降解。我们通过将扩散抽样过程视为大都市调整后的Langevin算法来研究这个问题，这有助于揭示根本的原因是条件不良的曲率。在这种见解下，我们提出了一种模型不足的预处理扩散采样（PDS）方法，该方法利用矩阵预处理以减轻上述问题。至关重要的是，在理论上证明了PDS可以收敛到SGM的原始目标分布，无需再进行重新训练。在三个图像数据集上进行了各种分辨率和多样性的广泛实验，可以验证PD始终加速现成的SGM，同时保持合成质量。特别是，PD在更具挑战性的高分辨率（1024x1024）图像生成上最多可加速29倍。

translated by 谷歌翻译

Softmax-free Linear Transformers

Jiachen Lu , Li Zhang , Junge Zhang , Xiatian Zhu , Hang Xu , Jianfeng Feng

分类：计算机视觉 | 人工智能 | 机器学习

2022-07-05

视觉变形金刚（VIT）通过贴片图像令牌化推动了各种视觉识别任务的最先进，然后是堆叠的自我注意操作。采用自我发场模块会导致计算和内存使用情况的二次复杂性。因此，已经在自然语言处理中进行了各种尝试以线性复杂性近似自我发挥计算的尝试。但是，这项工作的深入分析表明，它们在理论上是缺陷的，或者在经验上是无效的视觉识别。我们确定它们的局限性植根于在近似过程中保留软马克斯的自我注意力。具体而言，传统的自我注意力是通过使令状特征向量之间的缩放点产物标准化来计算的。保留SoftMax操作会挑战任何随后的线性化工作。在这个见解下，首次提出了无软磁变压器（缩写为软的变压器）。为了消除自我注意事项的软马克斯操作员，采用高斯内核函数来替代点产品相似性。这使完整的自发矩阵可以通过低级矩阵分解近似。我们近似的鲁棒性是通过使用牛顿 - 拉夫森方法来计算其摩尔 - 芬罗逆的。此外，在低级别的自我注意事项上引入了有效的对称归一化，以增强模型的推广性和可传递性。对Imagenet，Coco和ADE20K的广泛实验表明，我们的软可以显着提高现有VIT变体的计算效率。至关重要的是，具有线性复杂性，允许使用较长的令牌序列，从而使精度和复杂性之间的权衡较高。

translated by 谷歌翻译

PolarFormer: Multi-camera 3D Object Detection with Polar Transformers

Yanqin Jiang , Li Zhang , Zhenwei Miao , Xiatian Zhu , Jin Gao , Weiming Hu , Yu-Gang Jiang

分类：计算机视觉 | 人工智能

2022-06-30

自动驾驶中的3D对象检测旨在推理3D世界中感兴趣的对象的“什么”和“在哪里”。遵循先前2D对象检测的传统智慧，现有方法通常采用垂直轴的规范笛卡尔坐标系。但是，我们共轭这并不符合自我汽车的视角的本质，因为每个板载摄像头都以激进（非垂体）轴的成像几何形状感知到了楔形的楔形世界。因此，在本文中，我们主张对极性坐标系的开发，并提出一个新的极性变压器（极性形式），以在Bird's-eye-View（BEV）中更准确的3D对象检测（BEV），仅作为输入仅作为输入的多相机2D图像。具体而言，我们设计了一个基于交叉注意的极性检测头，而无需限制输入结构的形状以处理不规则的极性网格。为了解决沿极性距离维度的不受约束的物体量表变化，我们进一步引入了多个层状表示策略。结果，我们的模型可以通过参与序列到序列时尚的相应图像观察来充分利用极性表示，但要受几何约束。对Nuscenes数据集进行的彻底实验表明，我们的极性形式的表现明显优于最先进的3D对象检测替代方案，并且在BEV语义分割任务上产生了竞争性能。

translated by 谷歌翻译

Learning Ego 3D Representation as Ray Tracing

Jiachen Lu , Zheyuan Zhou , Xiatian Zhu , Hang Xu , Li Zhang

分类：计算机视觉

2022-06-08

一个自动驾驶感知模型旨在将3D语义表示从多个相机集体提取到自我汽车的鸟类视图（BEV）坐标框架中，以使下游规划师接地。现有的感知方法通常依赖于整个场景的容易出错的深度估计，或者学习稀疏的虚拟3D表示没有目标几何结构，这两者在性能和/或能力上仍然有限。在本文中，我们介绍了一种新颖的端到端体系结构，用于自我3D表示从任意数量的无限摄像机视图中学习。受射线追踪原理的启发，我们将“想象眼睛”的两极分化网格设计为可学习的自我3D表示，并通过适应性注意机制与3D到2D投影一起以自适应注意机制的形式制定学习过程。至关重要的是，该公式允许从2D图像中提取丰富的3D表示，而无需任何深度监督，并且内置的几何结构一致W.R.T. bev。尽管具有简单性和多功能性，但对标准BEV视觉任务（例如，基于摄像机的3D对象检测和BEV细分）进行了广泛的实验表明，我们的模型的表现均优于所有最新替代方案，从多任务学习。

translated by 谷歌翻译

Accelerating Score-based Generative Models for High-Resolution Image Synthesis

Hengyuan Ma , Li Zhang , Xiatian Zhu , Jingfeng Zhang , Jianfeng Feng

分类：计算机视觉 | 机器学习

2022-06-08

基于分数的生成模型（SGM）最近已成为一类有希望的生成模型。关键思想是通过将高斯的噪音和梯度添加到高斯样品中，直到收敛到目标分布（又称扩散采样）来产生高质量的图像。但是，为了确保采样和发电质量中收敛的稳定性，此顺序抽样过程必须采用较小的步长和许多采样迭代（例如，2000年）。已经提出了几种加速方法，重点是低分辨率生成。在这项工作中，我们考虑使用SGM的高分辨率一代加速，这是一个更具挑战性，更重要的问题。从理论上讲，我们证明了这种缓慢的收敛弊端主要是由于目标分布的无知。此外，我们通过利用空间和频域中的结构先验来介绍一种新的目标分布意识采样（TDAS）方法。关于CIFAR-10，Celeba，LSUN和FFHQ数据集的广泛实验，验证了TDA可以始终加速最先进的SGM，尤其是在更具挑战性的高分辨率（1024x1024）图像生成任务上，最多可以维持18.4 x合成质量。随着采样迭代的较少，TDA仍然可以生成高质量的图像。相比之下，现有的方法会大大降解甚至完全失败

translated by 谷歌翻译